분류 분석 (문단 편집)

=== 그 외 분류방법들 ===
 * '''[[서포트 벡터 머신]]'''(SVM; support vector machine)
 위의 ANN이 호응을 받기 전에 [[데이터 마이닝]] 업계를 꽉 쥐고 있었던 분류기법이다. 데이터를 이진적으로 분류하는 알고리즘인데, 수학적으로는 볼록 최적화(convex optimization) 문제라고 볼 수 있다. 여기서는 두 군집 사이의 최전방에 위치한 데이터를 '''서포트 벡터'''(support vector)라고 부르고, 두 군집에서 마주보는 서포트 벡터 간에 존재하는 거리인 '''여백'''(margin)이 서로 동일해지도록 초평면 선긋기를 한다. 어설프게 비유하자면 남한 군집과 북한 군집 사이의 서포트 벡터는 [[GOP]]이고 양쪽 사이의 여백은 [[비무장지대]]이며 초평면은 [[군사분계선]]이라고도 할 수 있다. 아무튼 SVM은 선긋기를 통해 양쪽을 확신하게 분류함으로써 데이터를 이진적으로 나누어 놓는다.
 
 물론 같은 데이터 세트에서도 여러 종류의 초평면이 나올 수 있으므로, 분석가는 이 중에서 가장 넓은 여백을 가진 초평면을 선택하게 되는데 이때의 여백을 '''최대여백'''(maximum margin)이라고 부른다. 여백이 클수록 모델의 복잡도가 감소하여 초평면의 일반화 성능도 높고 과적합에 강하기 때문이다. 또한 훈련 데이터에 오차가 있어 최대여백의 초평면을 잘못 거부할 위험이 있을 경우, 소수의 오차 정도는 여백 내로 진입하는 것을 허용하는 '''부드러운 여백'''(soft margin) 접근법도 있다. 따라서 SVM을 활용해서 데이터를 나누는 모델은 데이터의 변화에 영향을 적게 받는 강고한(robust) 모델에 속한다.
 
 SVM은 여러 모로 장점이 뚜렷하여 한때 주류의 위상에 있었다. 군집 경계면 근처의 데이터만 가지고 데이터를 분류하기 때문에 훈련 데이터가 아무리 애매하거나 변동이 커도 어지간하면 흔들리지 않고, 일반화 가능성도 용이하며 컴퓨팅 비용도 적게 든다. 그러면서도 의사결정나무처럼 국소적 최적해에 구애받는 것이 아니라 큰 그림을 보기 때문에 전역적인 최적해를 찾아낸다. 결과적으로 만들어진 모델도 간결하기 때문에 분류가 가볍고 빠른 편. 비선형 초평면을 긋는다 해도 차원정보를 증가시키는 커널(kernel) 함수만 도입하면 된다. 데이터에 무관한 속성이 있다 해도 영향을 덜 받거나 아예 아무런 영향을 받지 않을 수도 있어, ANN이 주목받기 전까지 많은 인기를 누렸다.

* '''[[나이브 베이지안 알고리즘|나이브베이즈분류기]]'''(NBC; naive Bayes classifier)
 위의 SVM과 함께 한 시절을 풍미하던 분류기법. 여기서는 [[확률론]], 특히 [[베이즈 확률론]]에 대한 이해가 필수적인데, 베이즈 확률론에서 순진하다(naive)는 말은 확률예측에서 모든 사건이 독립사건이라는 가정을 전제로 함을 가리킨다. NBC의 경우, 여기서는 어떤 속성 내의 등급(class) 간 조건부확률은 모든 속성의 등급 간 조건부확률의 곱과 같을 것이라는 '순진한' 가정을 전제로 한다. 즉, 각각의 속성들은 자기 등급 내에만 영향을 끼칠 것이며 속성 간에는 서로 완벽하게 독립적인 관계가 존재할 거라는, 그리 현실적이지는 못한 전제조건을 다는 셈이다.
 
 하지만 놀랍게도 NBC는 불완전한 데이터의 속성 간 부분집합만 가지고도 꽤 정확하면서도 쉬운 예측력을 보여준다. 또한 결측값이 많거나 심지어 속성 자체가 관측되지 않더라도 통계적으로 처리가 가능하며, 사전확률을 사후확률의 추정치로 쓰는 것이 가능하다. 또한 예측의 불확실성을 확률로 보여주기 때문에 정보량이 많고, 고차원 데이터에서도 쉬운 분류계산이 가능하다. 그러나 '순진한' 가정이 깨지는 상황, 즉 속성 간의 상호상관이 강하게 나타날 때에는 당연히 잘못된 분류결과가 산출된다. 다시 말해, NBC는 상호작용(interaction)의 효과에는 취약한 모습을 보인다. 그래서 이를 극복하기 위해 베이지안 네트워크(Bayesian network)나 마르코프 무작위 필드(Markov random field) 같은 대안들이 나오고 있지만, 이들은 오히려 훈련비용이 더 많이 들고 과적합에도 취약하다는 비판도 나오고 있다.

* '''K-최근접이웃'''(K-NN; K-nearest neighbor)
 [[오리 실험|"오리처럼 걷고, 오리처럼 꽥꽥거리고, 오리처럼 보인다면, 아마도 오리일 것이다."]] 이 아이디어는 K-NN의 논리를 극명하게 보여주는 한 사례이다. 심지어 사자소학에는 근주자적 근묵자흑(近朱者赤 近墨者黑), 즉 "붉은 인주를 가까이 하면 붉어지고, 검은 먹을 가까이 하면 검어진다" 는 구절도 있다. 즉, K-NN의 핵심은 [[유유상종|가까운(비슷한) 특성들을 갖고 있는 데이터들을 같은 것으로 분류]]하는 데 있다. 굉장히 단순하고 직관적인 알고리즘이며, 따라서 전역적인 수준의 분류모델이라 할 만한 것이 필요치 않다. 경우에 따라서는 분류분석의 첫 타자로 K-NN부터 소개하는 강좌도 있을 정도.
 
 K-NN에서 말하는 k값은 근접한 데이터의 수로서, 예컨대 k에다 5라는 숫자를 대입할 경우 주어진 테스트 데이터에서 가장 가까운 5개의 훈련 데이터가 어느 소속인지 판단한다. 그리고 그 5개의 훈련 데이터에서 가장 많은 소속을 갖는 데이터 군집 쪽으로 해당 테스트 데이터를 소속시킨다. 이때 k값은 동점을 막기 위해 홀수 값을 취할 것이 권고된다. k값이 6일 경우, 가장 가까운 6개의 훈련 데이터 중에서 3개는 이쪽, 3개는 저쪽이라면 분류를 판단할 수 없기 때문. k값의 크기가 작을수록 국소적 이웃에 너무 크게 의존하여 변동성이 증가, 고분산 및 과적합이 발생한다. 반대로 k값이 너무 클 경우 근접한 이웃의 존재감이 옅어져서 테스트 데이터가 영 동떨어진 훈련 데이터의 영향을 받아 오분류될 수도 있다. 이 경우에는 변동성이 감소, 고편의 과소적합이 발생한다. 거리 측정은 [[군집 분석]]과 동일한 근접성 척도를 쓴다.
 
 K-NN은 상기했듯이 전역적 모델이 없고 매번 일일이 분류하므로 모델 구축 과정에서 컴퓨팅 파워를 소모하지 않는다. 사전에 세워진 원칙이 없고 그냥 그때그때 데이터가 들어오면 그제야 일일이 확인해서 분류해주는 식. 따라서 전체 데이터 세트의 분포니 뭐니 하는 [[큰 그림]]을 따질 필요가 없고, 훈련 데이터의 내용을 기억했다가 검색만 할 줄 알면 된다. [[모델링]]이라기보다는 그냥 [[검색엔진]]이라고 해도 무방할 지경. 이것은 상기한 '''게으른 학습자'''의 전형적인 특성을 보여준다. 그러나 이 때문에 결측값이나 예측에 무관한 속성을 처리하는 데는 취약하고, 분류에 들어가는 컴퓨팅 비용이 상당하며, 국소적인 노이즈가 존재할 경우 영향을 받을 수 있다.

* '''로지스틱 회귀분석'''(logistic regression)
 [[회귀분석]]을 분류 목적으로 쓸 경우에는 로짓분석을 쓰게 된다. 이것은 반응(종속)변인, 즉 세로축이 0과 1의 이진적 범주로 구성되어 있는 회귀분석 모델로, 꼭 [[데이터 마이닝]]을 위해서 쓰는 것은 아니지만 분류를 포함한 여러 목적으로 사용될 수 있다. 분류 목적으로 일반 선형회귀분석을 적용할 경우 y＜0 또는 y＞1을 예측함으로써 해석을 불가능하게 만들 수 있으므로 사용되지 않고, 값의 범위를 0에서 1로 한정하기 위해서 로짓변환을 하게 된다. 따라서 로짓분석은 '''예측(독립)변인의 연속적인 각 값들이 반응(종속)변인의 1 또는 0에 해당할 사후확률을 추정'''함으로써 데이터를 분류한다. 회귀계수 [[베타]](β)가 양수일 때는 [[S]]자 그래프, 음수일 때는 역S자 그래프가 그려지는 게 특징.
 
 로짓분석은 y값이 1일 확률(p)이 0일 확률(1－p)에 대해 갖는 배율인 '''승산'''(odds; p/(1－p))을 서로 비교하는 '''승산비'''(odds ratio)를 계산함으로써 이루어진다. 또한 기 주어진 표본에 비추어서 모수의 추정이 적합한 정도가 최대가 되게 하는 추정법을 찾는 '''최대우도'''(ML; maximum likelihood) '''추정법'''도 사용한다. 여기서는 모델에 관련없는 속성이나 상호작용, 중복적 속성에 쉽게 대처할 수 있지만, 모델이 과적합되거나 결측값이 있을 때에는 취약한 모습을 보인다. 또한 SVM과는 달리 그 자체적으로 모델 복잡도를 판단할 수 없지만, 다행히 적절한 항을 회귀식에 추가하면 쉽게 조치할 수 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

분류 분석 (문단 편집)

캡챠